#KV-cache 양자화

r/LocalLLaMA • 75일 전

IMP 8

TurboQuant 정밀 성능 분석과 검증

최근 주목받는 KV-cache 양자화 기법인 TurboQuant의 실제 성능을 검증한 종합 연구 결과입니다. 30B~200B 이상의 다양한 모델과 장문 컨텍스트, 추론 벤치마크를 테스트한 결과, 기존 FP8 방식이 정확도 손실이 거의 없고 처리량과 지연 시간 면에서도 우수한 것으로 나타났습니다. 반면 TurboQuant는 약간의 메모리 절약 효과 외에는 처리 속도 저하를 유발하여 프로덕션 환경에는 FP8이 더 적합한 기본값으로 권장됩니다.

KV-cache 양자화 vLLM FP8